其他
Hinton、吴恩达们也“吹牛”炒作?媒体和研究人员共谋,AI圈误导信息泛滥
【导读】也许每篇论文摘要都必须强制加一块内容,说明所提出方法的局限性。这样就可以避免一些科学上的误解和炒作。 -Sebastian Risi(@ risi1979)
11月24日,《经济学人》发表了对OpenAI的GPT-2句子生成系统的采访,误导性地表示GPT-2的答案是“未经编辑的”,而实际上,每个已发布的答案都是从五个选项中挑出来的,且具有一定的连贯性和幽默感。这导致公众认为对话式AI发展的状况比实际上乐观得多。而当AI专家(Erik Bryjngjolffson)发推文表示“这个访谈‘令人印象深刻‘,答案的连贯性超过很多人类’”时,这种印象可能无意间被加深。
OpenAI创建了一对神经网络,使机器人可以学习操纵定制的魔方,并通过误导性的视频和博客对其进行了宣传,使许多人认为该系统已经了解魔方求解的认知方面(即应该向哪个方向旋转),但实际上这个系统压根不懂多维数据集求解过程的这个层面。(相反地,除了灵巧之外,多维数据集求解是通过1992年设计的经典的符号操作多维数据集求解算法计算的,而不是学习到)。另外,这段流传甚广的视频中还有一个不明显的信息点,那就是这个魔方装有蓝牙传感器,并且即使在最佳情况下,也只能解决20%的完全加扰的魔方。媒体报道往往会漏掉许多细微差别。例如,《华盛顿邮报》报道:“ OpenAI的研究人员表示,他们没有“明确地编程”机器来解决难题”,用词极其模糊。《华盛顿邮报》后来发表了一项更正——“更正:OpenAI将他们的研究重点放在了使用机械手对魔方的物理操纵上,而不是解魔方上……”。但又有人怀疑,读过这篇更正的人数比被原始新闻误导过的人数相对要少。
至少有两篇关于神经网络在物理学中的使用的最新论文被夸大报道,即使是诸如Technology Review 之类的著名媒体也是如此。在这两个案例下,神经网络解决复杂问题的试玩版本都被当成实际成果追捧。例如,一份报告声称“ 神经网络比传统方法解决三体问题的速度快1亿倍 ”,但是该网络从传统意义上来说并没有解决问题,而是进行了近似,且仅近似了一个高度简化的二阶自由问题(而不是常规的10个问题),还有一点是仅针对具有相同质量的物体。最初的技术评论在网络上广泛传播开;随后,Ernest Davis和我本人在Nautilus上进行的详细评论受到了广泛的关注,但是我粗略计算了一下,那篇抓人眼球的原报告的转推量是这篇更为冷静的分析文章的75倍,甚至更多。这一点并不让人感到意外。
在2015年《卫报》上,一篇题为《谷歌距离开发具有类人智能的机器更近了一步》 的文章中,被誉为“深度学习教父”的Geoffrey Hinton表示谷歌的新方法将“帮助克服人工智能的两个主要挑战:掌握自然的对话语言以及实现逻辑飞跃的能力”,且该公司(同样是《卫报》的表述)马上就要“开发出具有逻辑、自然对话甚至开玩笑能力的算法。”但是四年过去了,距离实现没有人为干预就能进行自然对话,确保连贯性的机器我们还有很长的路要走,而现有的系统也无法以可靠的方式推理物理世界。 大约一年后, Hinton声称放射科医生就像“一匹已经站在悬崖边上的郊狼,只待向下看一眼”,暗示“如果你是一名放射线医生,就会像动画片《歪心狼》中的Wile E. Coyote一样,已经站在了悬崖边上,”他还补充道,“我们现在应该停止培训放射科医生。很显然,五年之内,深度学习将比放射科医生做得更好。”Hinton在2017年接受《纽约客》采访时进一步回应了这一说法。与此同时,数百家针对放射的公司孵化出来,但是到目前为止,还没有真正的放射线学家被取代,最好的预测是深度学习可以帮助放射线学家,但不能在短期内取代他们。Hinton的话吓坏了许多放射科室。这也产生了一些负面影响:当前,在世界许多地方,放射医师是短缺的。 2016年11月,在《哈佛商业评论》的页面上,另一位深度学习领域的著名人物吴恩达写道:“如果一个人可以花不到一秒钟的时间完成一项思维任务,我们迟早可以用AI自动化来完成。”一个更加客观的评估是,某种东西是否可以自动化,在很大程度上取决于问题的性质,可以收集的数据以及两者之间的关系。对于棋盘游戏等封闭式问题,可以通过模拟收集大量数据,吴恩达的主张被证明是具有预见性的。而在无法完全模拟的开放式问题(例如对话理解)中,迄今为止,吴先生的主张已被证明是错误的。商业领袖和政策制定者应该透彻地理解那些适用于当前技术的问题与不适用于当前技术的问题之间的区别;吴恩达的话模糊了这一点。 2015年5月,《连线杂志》部分地根据对时任Facebook AI Research负责人Yann LeCun的采访报道说:“'深度学习'将很快给我们带来超级智能机器人”;不用说,超级智能机器人还没有到来。正如Pieter Abbeel最近指出的那样,在实验室机器人走向现实世界之前,我们还有很长的路要走。
过度乐观的风险
聊天机器人:Facebook在2015年承诺推出一个名为M的系统,该系统将彻底改变个人助理可以做什么的界限。人们对这种AI闻所未闻,该项目被认为是一种数据游戏:人类回答第一批问题,然后深度学习处理其余问题。到2018年,该项目流产。总体来说,2015年,人们对聊天机器人的热情很高。现在,众所周知的是,当前的AI只能处理某些有限的对话,甚至不能保证完全可靠。Facebook牛吹出去了,但没有兑现。
医疗诊断:IBM曾大肆鼓吹沃森(Watson),但最终由于医学研究结果令人失望,MD Andersen Cancer Institute等医疗合作伙伴退出。现在,人们普遍认为,将沃森用于医学诊断的项目是一个过高的承诺。由于有数据访问权限和大量计算和知识资源,很多人最初可能希望DeepMind介入医疗诊断,但是现实是,还没有令人信服的成果出现(且DeepMind的医疗产品从那以后转移到了Google)。实践证明,即使在更简单,对自然语言理解的要求也较低的放射学案例中(主要是感知而不是推理),将实验室演示用于现实也非常困难。
假新闻侦探:2018年4月,马克·扎克伯格(Mark Zuckerberg)向国会表示,人工智能将在五到十年内进入这一领域,但到今年5月,首席技术官Mike Schroepfer放弃了近期有望取得的重大进展。 无人驾驶汽车:许多人都期望到2020年实现这一目标(Elon Musk曾承诺),但该领域的普遍共识是,除了在有限的条件下(例如理想的天气,行人较少,有详细地图等),全自动驾驶比大多数人预期的要困难得多,而且要过很多年才能实现。
六点给读者、研究人员、媒体的建议
除去这些言论,人工智能系统实际上在做什么?“阅读系统”真的能阅读吗? 结果能多大程度地泛化?(在凤凰城的无人车在孟买也能工作吗?解魔方系统能开瓶子吗?还需要进行多少训练?) 如果读者感兴趣,有没有可以让他们自行探索的演示? 如果宣称人工智能系统比人类更好,那么是比哪些人要好?好多少呢?(相比之下,低薪工人缺乏好好表现的动力,可能无法真正探究人类能力的极限) 实际上,成功完成某个特定任务可以让我们向建立真正的AI迈出多大一步? 系统有多健壮?无需大量重新训练,它是否可以与其他数据集一样好用?AlphaGo在19x19的棋盘上可以正常工作,但是需要重新训练才能在矩形棋盘上工作;这说明它缺乏迁移能力。
◆
精彩公开课
◆